구름톤

세미프로젝트1_01_다크웹 유출 정보 알림 및 OSINT 수집 시스템 개발

작성자 : Heehyeon Yoo|2026-01-18
# 구름톤# 세미프로젝트# OSINT# DarkWeb# AI

첫 세미프로젝트

구름톤 정보보호과정 16회차에 참여한 지도 어느덧 50여 일이 지났다. 이론 기간이 끝났고 드디어 첫 번째 세미프로젝트가 시작됐다.

첫 주제는 다크웹 유출 정보 알림 및 OSINT 수집 시스템 개발이다. 아직 팀에서 구체적으로 무엇을 만들자는 결론까지 난 건 아니다. 그래도 다음 킥오프 미팅 전까지 내가 먼저 알아본 내용과 공부한 것들은 정리해두고 싶었다. 해볼 만하다고 느낀 방향도 같이 적어두기로 했다.

AI 시대 다크웹 진입장벽 붕괴

과거의 다크웹은 그래도 어느 정도 기술적 진입장벽이 있었다. Tor 브라우저를 설치해야 했고 .onion 주소를 직접 찾아다녀야 했다. 피싱 메시지나 그럴듯한 사기 게시물을 쓰는 데도 최소한의 수고가 들어갔다.

그런데 생성형 AI가 등장하면서 이 장벽이 눈에 띄게 낮아졌다.

악성 LLM의 등장

일반 ChatGPT에는 윤리적 가드레일이 있지만 다크웹에는 검열 없는 악성 LLM들이 이미 돌아다니고 있다.

  • WormGPT : 피싱 이메일 대량 생성에 특화
  • FraudGPT : 사기 스크립트, 악성코드 생성 지원
  • PaaS(Phishing-as-a-Service) : AI와 결합된 자동화 피싱 서비스

이제는 숙련도가 높지 않은 사용자도 AI에게 "그럴듯한 피싱 메시지 써줘"라고 요청하면 꽤 그럴듯한 사회공학 문구를 순식간에 얻을 수 있다. 필요하면 API를 붙여 대량 생성까지 자동화할 수도 있다.

공격과 방어의 비대칭성

입장상황
공격자AI로 수만 번 시도하고, 단 한 번만 성공하면 목표 달성
방어자모든 공격을 막아야 하고, 한 번이라도 뚫리면 피해

비용 면에서도 비대칭적이다.
공격자는 API 호출 몇 달러로 대량의 공격 시도를 할 수 있다.
반면 방어자는 분석가의 인건비를 비롯해 많은 시간을 투입해야 한다.

노이즈의 폭발이 문제의 핵심

다크웹은 원래부터 노이즈가 많은 공간이었다. 실제 위협은 전체의 1%도 안 된다고 하고 대부분은 사기, 재탕된 데이터, 봇이 뿌린 광고성 게시물이다.

그런데 AI가 들어오면서 이 노이즈는 더 많아졌고 더 정교하게 보이기까지 한다. 저품질 템플릿형 캠페인이 폭증했고 겉보기에는 그럴듯하지만 실체가 없는 게시물도 훨씬 많아졌다. 분석가 입장에서는 수천 개의 게시물을 읽어야 하고 그 안에서 진짜 위협과 잡음을 분리하는 데 시간을 계속 써야 한다.

이 상황에서 기존 방식대로 모든 걸 크롤링하고 모든 알림을 그대로 받는다면 실무자는 결국 노이즈를 걸러내는 데만 큰 피로를 쓰게 된다. 물론 이미 고도화된 필터링 시스템을 쓰는 조직도 있겠지만 이 잡음을 초기에 줄여주는 쪽으로 접근해도 충분히 의미가 있겠다는 생각이 들었다.

LLM 생성 콘텐츠 필터링

그래서 크롤링 단계부터 LLM 생성 콘텐츠로 보이는 노이즈를 줄여주는 OSINT 시스템을 만들어보는 것도 괜찮겠다고 봤다.

기존 시스템은 일단 넓게 수집한 뒤 그다음 분류하고 필터링하는 흐름이 많다. 그런데 AI 생성 콘텐츠가 폭증한 지금은 수집 단계에서부터 "이건 AI가 대량 생산한 저품질 콘텐츠일 가능성이 높다"를 먼저 가늠하고 우선순위를 조정하는 방식도 충분히 유효해 보였다.

AI 생성 텍스트 탐지 원리

AI가 생성한 텍스트는 인간이 작성한 것과 통계적으로 다른 특징을 보인다.

  • 낮은 당혹성(low perplexity) : AI 생성 텍스트는 예측 가능성이 높아 낮은 perplexity 값을 보임
  • 낮은 돌발성(low burstiness) : 인간은 문장 길이와 표현이 다양하지만 AI는 균일한 패턴 유지
  • 템플릿 잔재 : As an AI... 같은 프롬프트 누수 패턴

이런 특징을 종합해서 AI-Score를 산출한 뒤 여기에 OPSEC 실수(동일 연락처, 지갑 재사용, Surface 링크 누수 등) 같은 신호를 묶으면 실제로 위험한 캠페인과 AI가 찍어낸 잡음을 어느 정도 가를 수 있을 것 같다.

핵심 가치는?

  1. 분석가 시간 절약 : 1,000개 글을 읽는 대신, AI가 점수화한 고위험 50개만 확인
  2. 연결 고리 발견 : 동일 Bitcoin 주소, PGP 키 등으로 분산된 게시물을 자동 클러스터링
  3. 즉각 대응 : 고위험 탐지 시 Discord/Email 실시간 알림

앞으로의 방향

킥오프 미팅에서 팀원들과 다시 정리해봐야겠지만 지금 내 머릿속에서 우선순위는 아래 순서에 가깝다.

  1. Tor 기반 크롤러 구축 : 다크웹 데이터 자동 수집 파이프라인
  2. AI 분석 엔진 : LLM 생성 가능성 및 OPSEC 리스크 점수화
  3. 클러스터링 : 유사 게시물 그룹화로 캠페인 식별
  4. OSINT 증거 체인 : 다크웹 데이터와 표면웹 증거 연결
  5. 운영 대시보드 : 분석가를 위한 단일 화면 인터페이스

물론 세미프로젝트 기간 안에 이걸 전부 구현하긴 어렵다. 그래도 핵심 콘셉트를 검증할 수 있는 MVP 정도는 충분히 노려볼 수 있지 않을까 싶다.